\chapter{Récupération des données}

La récupération des 2000 fiches PDB souhaitées se fait en plusieurs étapes, toutes réalisées via un script python. 


\section{Téléchargement du fichier "ls-lR"}
Dans un premier temps, il nous faut récupérer le fichier appelé "ls-lR", contenant les adresses de tous les fichiers téléchargeables depuis le site de la PDB (les 70 000 entrées de la base de données sont chacune disponible sous plusieurs formats).

\paragraph{}
Pour cela, il faut se connecter en FTP (File Transfer Protocol) à l'addresse "ftp.wwpdb.org". 
Ensuite, nous téléchargeons le fichier "ls-lR" à l'adresse "pub/pdb/data/structures/" pour l'écrire sur notre disque. 


\section{Génération de la liste de fichiers PDB}
Dans un second temps, comme nous ne souhaitons obtenir que 2 000 entrées au format PDB uniquement, il nous faut effectuer une sélection parmi les adresses du fichier "ls-lR". 

\paragraph{}
Pour cela, sachant que les fichiers PDB sont stockés dans le répertoire "pub/pdb/data/structures/divided/pdb", nous effectuons un premier tri en ne gardant que les lignes correspondant aux adresses contenant la chaîne de caractères "/divided/pdb". 
Puis, dans cette liste, nous choisissons aléatoirement 2 000 adresses, en supprimant au fur et à mesure les adresses choisies de la liste après les avoir ajouté à une nouvelle liste qui sera notre liste définitive. 


\section{Téléchargement des fichiers pdb}
Enfin, il nous faut télécharger les 2 000 fichiers PDB sélectionnés, toujours par le protocole FTP. 
Les fichiers obtenus sont des archives au format "gz". 


%%% Local Variables: 
%%% mode: latex
%%% TeX-master: "../main"
%%% End: 
